home *** CD-ROM | disk | FTP | other *** search
/ Linux Cubed Series 2: Applications / Linux Cubed Series 2 - Applications.iso / sound / speech / abbotdem.rea < prev    next >
Text File  |  1996-11-16  |  12KB  |  319 lines

  1. AbbotDemo mini-FAQ
  2. ==================
  3.  
  4. Q1: What is AbbotDemo?
  5. ----------------------
  6.  
  7. AbbotDemo is a packaged demonstration of the Abbot connectionist/HMM
  8. continuous speech recognition system developed by the Connectionist
  9. Speech Group at Cambridge University.  The system is designed to
  10. recognize British English and American English clearly spoken in a quiet
  11. acoustic environment.
  12.  
  13. This demonstration system has a vocabulary of 5000 words - anything
  14. spoken outside this vocabulary can not be recognised (and therefore will
  15. be recognised as another word or string of words).  The vocabulary and
  16. grammar were optimised for the task of reading from a North American
  17. Business newspaper, for example the Wall Street Journal (the word list
  18. is given in file vocab5k.txt).
  19.  
  20.  
  21. Q2: Why was AbbotDemo released?
  22. -------------------------------
  23.  
  24. a) For information:  We want to show what speech recognition systems
  25.    are capable of at the moment.
  26.  
  27. b) For publicity: Connectionist HMM systems have some advantages over
  28.    traditional HMM systems.  We are open to people who wish to license
  29.    this technology and are looking for research funding to continue this
  30.    work.
  31.  
  32.  
  33. Q3: How do install AbbotDemo?
  34. -----------------------------
  35.  
  36. This is a binary only release (compilation free:).  Binaries are
  37. available from the svr-ftp.eng.cam.ac.uk FTP site in directory
  38. comp.speech/data.  The file AbbotDemo-0.x.tar.gz contains binaries for
  39. all supported architectures.  The files AbbotDemo-0.x-${OS}.tar.gz
  40. contain complete releases for specific operating systems only.  The
  41. available architectures are SunOS, IRIX, HP-UX and Linux.
  42.  
  43. To install you need to get the appropriate binary release and extract
  44. the files using gzip and tar.  Typically this will look something like:
  45.  
  46. unix$ gunzip -c AbbotDemo-0.5.tar.gz | tar xvf -
  47.  
  48.  
  49. Q4: How do run AbbotDemo?
  50. -------------------------
  51.  
  52. The recognition system is called from the "AbbotDemo" shell script.
  53. This script must be given an arguemtn of either "-uk" or "-us" to run
  54. with British or American English models respectivly.   For example:
  55.  
  56. unix$ ./AbbotDemo -us
  57.  
  58. A window should appear, called AbbotAudio, for controlling the recording
  59. of the speech.  A sample session is described below.
  60.  
  61. Initialization: Before processing any speech, first click on
  62. "Calibrate".  This calibrates the automatic speech start- and end-point
  63. detection algorithm based on the background noise level.  This
  64. calibration process should be repeated whenever the speech capture
  65. environment changes.
  66.  
  67. Speech Collection: Click on "Acquire" and say something; for example,
  68. "President Clinton denied it".  The system has a rudimentary automatic
  69. start and end point detector and the waveform will be displayed once
  70. recording has finished.  If a waveform does not appear, check that the
  71. input levels are set to reasonable values.  There exists a "-audiogain"
  72. flag to AbbotDemo which will pop-up an additional window for setting the
  73. recording gain.  Be sure to repeat the calibration step if the recording
  74. levels are changed.  In the event that the end-point detector is
  75. functioning properly, clicking again on "Acquire" will cause the system
  76. to stop recording speech.
  77.  
  78. Speech Validation: Click on "Play" to confirm the recoding quality.
  79. This will play the sampled waveform.  If you want to see a
  80. time-frequency plot of the recorded speech, click on the "Spectrogram"
  81. button.
  82.  
  83. Recognition: Now click on "Pipe to NOWAY" to start the recognition
  84. process.  The screen should show something like this (with each line
  85. overwriting the last):
  86.  
  87. 1 THE 
  88. 1 THE BEST OF TWO 
  89. 1 THE REST OF THE UNIT AND IN 
  90. 1 PRESIDENT CLINTON DENIED IT 
  91. 1 PRESIDENT CLINTON DENIED IT A 
  92. 1 PRESIDENT CLINTON DENIED IT 
  93.  
  94. The script prints out the best guess to the word string as the recognition
  95. proceeds and the final recognised word string at the end.  Recognition
  96. should take about 8 Mbyte of memory and run in a few times real time on a
  97. 486DX or faster processor.
  98.  
  99. File Access: The "Import" button provides an alternate method for
  100. aquiring the speech waveform.  Clicking on this button causes the
  101. procedure to read an ascii, linearly encoded, 16 KHz data from the file
  102. "test_data" (in the current directory).  Similarly, clicking on "Export"
  103. causes AbbotAudio to write an ascii, linearly encoded, 16 KHz data to
  104. the file "timeData".
  105.  
  106. There exits another flag called "-showguts".  When AbbotDemo is invoked
  107. with this flag set another window is created that shows the phonemes
  108. that were recognised in the sentence.  Like the spectrogram option in
  109. AbbotAudio, time is displayed on the horizontal axis.  The vertical axis
  110. has one line for every phoneme in the system, the width of the line
  111. indicates the estimate of the probability that the given phoneme was
  112. present.
  113.  
  114. Alternatively, if you do not have X or have problems associated with
  115. AbbotAudio, you can send prerecorded files through the recogniser by
  116. specifing the names of the audio files on the command line.  These files
  117. should be of speech sampled at 16 kHz with 16 bits/sample in the natural
  118. byte order and with no header.  For example:
  119.  
  120. unix$ srec -t 3 -s16000 -b16 test.raw
  121. Speed 16000 Hz (mono)
  122. 16 bits per sample
  123. unix$ ~/AbbotDemo-0.4/AbbotDemo test.raw
  124. 75 A 
  125. 100 BEST 
  126. 125 BEST AND LOAN 
  127. 150 PRESIDENT CLINTON AND IN 
  128. 175 PRESIDENT CLINTON DENIED IT 
  129. 1 PRESIDENT CLINTON DENIED IT 
  130.  
  131. The file test.raw is included as an example in the 'etc' directory.
  132.  
  133.  
  134. Q5: Selecting the input device
  135. ------------------------------
  136.  
  137. The input device can be selected with a command line option to
  138. AbbotAudio or using an environment variable.
  139.  
  140.   command line (checked first)
  141.  
  142.     -input <input-choice>            set input port
  143.     -output <output-choice>            set output port
  144.  
  145.   environment variable (checked if not specified on command line) 
  146.  
  147.     setenv ABBOTAUDIO_INPUT <input-choice>    set input port
  148.     setenv ABBOTAUDIO_OUTPUT <output-choice>    set output port
  149.  
  150. Where the <input-choice> is one of:
  151.                             Default
  152.     SUN  : mic, line                mic
  153.       SGI  : mic, line, digital            mic
  154.     HP   : mic, line                line
  155.     LINUX: NONE                    -
  156.  
  157. and the <output-choice> is one of:
  158.                             Default
  159.     SUN  : speaker, headphone, line            speaker
  160.     SGI  : NONE                    -
  161.     HP   : speaker, headphone, line-out, jack    jack
  162.     LINUX: NONE                    -
  163.  
  164.  
  165. Q6: Troubleshooting
  166. -------------------
  167.  
  168. If no output:
  169.  
  170.   * Did AbbotDemo produce any warning messages?
  171.   * Did a waveform appear after recording?
  172.   * Check the operation of the rest of the system with: AbbotDemo etc/test.raw
  173.  
  174. No waveform may indicate a number of trouble spots.  Consider the following:
  175.  
  176.   * microphone connected to inappropriate jack
  177.   * line levels are set incorrectly
  178.   * recording levels are set incorrectly
  179.   * noise level of audio front-end has unexpected characteristics
  180.     which cause problems for the speech detector.  If you suspect this
  181.     to be the case, click on "Calibrate" in AbbotAudio and collect some
  182.     silence.
  183.  
  184. If poor output:
  185.  
  186.   * Was the signal recorded in noise-free conditions?
  187.   * Are you putting on your best British accent?
  188.   * Are there very many out of vocabulary words?
  189.   * Is the text similar to that of a business newspaper?
  190.  
  191.  
  192. Q7: Known bugs
  193. --------------
  194.  
  195. This is the list of bugs that we know exist.  We will work on these when
  196. we get the time/funds to do so.
  197.  
  198.   * AbbotAudio and x_show_guts have display problems if they are partially
  199.     overlayed with another window
  200.   * x_show_guts has a display problem whereby the phone 'blobs' are a
  201.     little wider than they should be so they can overlap
  202.   * There is a mismatch between the pronunciations used for training
  203.     the American English system and those provided in this package
  204.  
  205.  
  206. Q8: Is this package supported?
  207. ------------------------------
  208.  
  209. No (but see Q2b).
  210.  
  211. If you know how to submit bug reports, then please do so.
  212.  
  213.  
  214. QN-2: Legalities
  215. ----------------
  216.  
  217. The user is granted a royalty free licence to use this software as is.
  218. No changes may be made to this software or any of the associated data
  219. files.  The complete package may be redistributed provided that no
  220. change is made other than reasonable distribution costs.  The software
  221. may not be incorporated into any other software without prior
  222. permission.
  223.  
  224.  
  225. QN-1: Who is responsible for AbbotDemo?
  226. ---------------------------------------
  227.  
  228. Tony Robinson (Cambridge University)
  229. Mike Hochberg (Cambridge University)
  230. Steve Renals  (Sheffield University)
  231. Dan Kershaw   (Cambridge University)
  232. Beth Logan    (Cambridge University)
  233. Carl Seymour  (Cambridge University)
  234.  
  235. Much of the funding for the recent development of this system was
  236. provided by the ESPRIT Wernicke Project with partners:
  237.  
  238.   CUED        Cambridge University Engineering Department, UK
  239.   ICSI        International Computer Science Institute, USA
  240.   INESC        Instituto de Engenharia de Sistemas e Computadores, Portugal
  241.   LHS        Lernout Hauspie SpeechSystems, Belgium
  242.   and associates:
  243.   SU        Sheffield University, UK
  244.   FPMs        Faculte Polytechnique de Mons, Belgium
  245.  
  246. Dedicated hardware for training the recurrent networks and system software
  247. for that hardware were provided by ICSI.
  248.  
  249. The Perceptual Linear Prediction code was researched and implemented by
  250. Hynek Hermansky (Oregon Graduate Institute).
  251.  
  252. The acoustic and language models for AbbotDemo were derived from materials
  253. distributed by the Linguistic Data Consortium.
  254.   ftp://ftp.cis.upenn.edu/pub/ldc
  255.  
  256. The CMU statistical language modelling toolkit was used to generate the
  257. trigram language model.
  258.  
  259. The BEEP dictionary was used for British English pronunciations.
  260.   ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/data/beep-0.6.tar.gz
  261.  
  262. The CMU dictionary was used for American English pronunciations.
  263.   ftp://ftp.cs.cmu.edu/project/fgdata/dict/cmudict.0.3.Z
  264.  
  265. The CMU phone set was expanded using code provided by ICSI.
  266.  
  267.  
  268. QN: Where can I find out more?
  269. ------------------------------
  270.  
  271. Specific publications on this system include:
  272.  
  273.     Tony Robinson
  274.     "The Application of Recurrent Nets to Phone Probability
  275.     Estimation", IEEE Transactions on Neural Networks, Volume 5,
  276.     Number 2, March 1994.
  277.  
  278.     M M Hochberg, A J Robinson and S J Renals
  279.     "ABBOT: The CUED Hybrid Connectionist-HMM WSJ Speech Recognition
  280.     System", Proc. of ARPA     SLS Workshop, Morgan Kauffman, March 1994
  281.  
  282.     Mike Hochberg, Tony Robinson and Steve Renals
  283.     "Large Vocabulary Continuous Speech Recognition using a Hybrid
  284.     Connectionist HMM System", International Conference on Spoken
  285.     Language Processing, pages 1499-1502, 1994.
  286.  
  287.     M M Hochberg, G D Cook, S J Renals, A J Robinson and R T Schechtman,
  288.     "The 1994 Abbot Hybrid Connextionist-HMM Large-Vocabulary
  289.     Recognition System", ARPA Spoken Language Systems, Morgan Kauffman,
  290.     1995.
  291.  
  292.     Tony Robinson, Mike Hochberg and Steve Renals,
  293.     "The use of recurrent networks in continuous speech recognition",
  294.     chapter 19, Automatic Speech and Speaker Recognition - Advanced
  295.     Topics, edited by C H Lee, K K Paliwal and F K Soong, Kluwer
  296.     Academic Publishers, 1995 (hopefully).
  297.  
  298. A good tutorial on speech recognition and hybrid connectionist/HMM
  299. techniques is:
  300.  
  301.     Nelson Morgan and Herve Bourlard,
  302.     "Continuous Speech Recognition", IEEE Signal Processing magazine,
  303.     volume 12, number 3, pages 24-42, May 1995
  304.  
  305. The definitive book on this subject is:
  306.  
  307.     Herve Bourlard and Nelson Morgan,
  308.     "Continuous Speech Recognition: A Hybrid Approach", Kluwer
  309.     Academic Publishers, 1993
  310.  
  311. More general information on speech recognition and pointers to tutorial
  312. articles and books can be found in the comp.speech FAQ http://
  313. and http://svr-www.eng.cam.ac.uk/comp.speech.
  314.  
  315. Please direct all queries to AbbotDemo@compute.demon.co.uk
  316.